Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving
Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali
Princeton University, Georgia Institute of Technology
一句话总结概括
为了解决吞吐量和延迟的调度问题,提出的一种早期退出系统
背景
- throughput和latency之间的冲突。
- 为了高的吞吐率,需要加大batch size
- 加大batch size会导致某些request的latency很大
- 一系列ML的早期退出机制
先前工作存在的问题
- 目前的工作只是把latency分解到批处理中,来做判断
- 也有提出早期退出的工作
难点
有空再精读,方向不是LLM